Domain adaptation aims to transfer the knowledge acquired by models trained on (data-rich) source domains to (low-resource) target domains, for which a popular method is invariant representation learning. While they have been studied extensively for classification and regression problems, how they apply to ranking problems, where the data and metrics have a list structure, is not well understood. Theoretically, we establish a domain adaptation generalization bound for ranking under listwise metrics such as MRR and NDCG. The bound suggests an adaptation method via learning list-level domain-invariant feature representations, whose benefits are empirically demonstrated by unsupervised domain adaptation experiments on real-world ranking tasks, including passage reranking. A key message is that for domain adaptation, the representations should be analyzed at the same level at which the metric is computed, as we show that learning invariant representations at the list level is most effective for adaptation on ranking problems.
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
We study a novel and important communication pattern in large-scale model-parallel deep learning (DL), which we call cross-mesh resharding. This pattern emerges when the two paradigms of model parallelism - intra-operator and inter-operator parallelism - are combined to support large models on large clusters. In cross-mesh resharding, a sharded tensor needs to be sent from a source device mesh to a destination device mesh, on which the tensor may be distributed with the same or different layouts. We formalize this as a many-to-many multicast communication problem, and show that existing approaches either are sub-optimal or do not generalize to different network topologies or tensor layouts, which result from different model architectures and parallelism strategies. We then propose two contributions to address cross-mesh resharding: an efficient broadcast-based communication system, and an "overlapping-friendly" pipeline schedule. On microbenchmarks, our overall system outperforms existing ones by up to 10x across various tensor and mesh layouts. On end-to-end training of two large models, GPT-3 and U-Transformer, we improve throughput by 10% and 50%, respectively.
translated by 谷歌翻译
最近,一些基于跨度的方法实现了联合方面态度分析的令人鼓舞的表现,该方法首先通过检测方面边界来提取方面(方面提取),然后对跨度级别的情感(情感分类)进行分类。但是,大多数现有方法要么顺序提取特定于任务的功能,导致功能交互不足,要么以并行方式编码方面功能和情感功能,这意味着除输入共享外,每个任务中的特征表示形式在很大程度上彼此独立。他们俩都忽略了方面提取和情感分类之间的内部相关性。为了解决这个问题,我们在新颖地提出了一个层次交互式网络(HI-ASA),以适当地对两个任务之间的双向交互作用,其中层次交互涉及两个步骤:浅层相互作用和深层交互。首先,我们利用交叉缝制机制选择性地将不同的特定任务特征组合为输入,以确保正确的双向相互作用。其次,将共同信息技术应用于输出层中两个任务之间的互惠学习,因此方面输入和情感输入能够通过反向传播编码其他任务的特征。在三个现实世界数据集上进行的广泛实验证明了HI-ASA优于基准。
translated by 谷歌翻译
本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
只有单个目标扬声器的语音供参考的单发语音转换(VC)已成为一个热门研究主题。现有作品通常会散布音色,而有关音高,节奏和内容的信息仍然混合在一起。为了进一步删除这些语音组件,有效地执行一声VC,我们采用随机重新采样用于音高和内容编码器,并使用互信息的各种对比对数比率上限和基于梯度反向层的对抗性相互信息学习来确保不同部分在训练过程中仅包含所需的分离表示的潜在空间。 VCTK数据集的实验显示该模型就自然性和智能性方面实现了一声VC的最新性能。此外,我们可以通过语音表示分离分别传递音色,音调和节奏的单发VC的特征。我们的代码,预训练的模型和演示可在https://im1eon.github.io/is2022-Srdvc/上获得。
translated by 谷歌翻译
原产地目的地(O-D)旅行需求预测是运输中的基本挑战。最近,时空深度学习模型展示了提高预测准确性的巨大潜力。但是,很少有研究能够解决细粒O-D矩阵中的不确定性和稀疏问题。这提出了一个严重的问题,因为许多零偏离了确定性深度学习模型的基础的高斯假设。为了解决这个问题,我们设计了一个空间零膨胀的负二项式神经网络(Stzinb-gnn),以量化稀疏旅行需求的不确定性。它使用扩散和时间卷积网络分析空间和时间相关性,然后将其融合以参数化行进需求的概率分布。使用两个具有各种空间和时间分辨率的现实世界数据集对STZINB-GNN进行了检查。结果表明,由于其高精度,紧密的置信区间和可解释的参数,尤其是在高时空分辨率下,Stzinb-GNN比基准模型的优越性。 STZINB-GNN的稀疏参数对各种运输应用具有物理解释。
translated by 谷歌翻译
多对象跟踪(MOT)需要通过帧检测和关联对象。与通过检测到的边界框或将对象作为点跟踪不同,我们建议跟踪对象作为像素分布。我们将此想法实例化,以基于变压器的体系结构P3Aformer,并具有像素的传播,预测和关联。P3Aformer通过流量信息引导的Pixel-Pixel特征,以传递帧之间的消息。此外,P3Aformer采用元结构结构来生成多尺度对象特征图。在推断期间,提出了一个像素关联过程,以基于像素的预测来通过帧恢复对象连接。P3Aformer在MOT17基准上的MOTA中产生81.2 \%,这是所有变压器网络中第一个达到文献中80 \%MOTA。P3AFORMER在MOT20和Kitti基准测试上也优于最先进的。
translated by 谷歌翻译
会话推荐系统(CRS)旨在捕获用户的当前意图,并通过实时多转交流交互提供建议。作为人机互动系统,CRS必须改善用户体验。但是,大多数CRS方法忽略了用户体验的重要性。在本文中,我们为CRS提出了两个关键点,以改善用户体验:(1)像人类一样说话,人类可以根据当前的对话环境以不同的风格说话。 (2)识别精细颗粒的意图,即使对于相同的话语,不同的用户也具有多种良好的意图,这与用户的固有偏好有关。根据观察结果,我们提出了一个新颖的CRS模型,即创建的定制对话推荐系统(CCRS),该系统从三个角度从三个角度定制了用户的CRS模型。对于类似人类的对话服务,我们提出了多式对话响应生成器,该响应响应生成器选择了语音发言的上下文感知语言风格。为了提供个性化的建议,我们在用户固有的偏好的指导下从对话上下文中提取用户当前的细粒度意图。最后,为了自定义每个用户的模型参数,我们从元学习的角度训练模型。广泛的实验和一系列分析表明,我们的CCR在推荐和对话服务上的优势。
translated by 谷歌翻译
大多数真实的知识图(kg)远非完整和全面。这个问题激发了预测最合理的缺失事实以完成给定的kg,即知识图完成(KGC)。但是,现有的kgc方法遇到了两个主要问题,1)虚假负面问题,即,采样的负面培训实例可能包括潜在的真实事实; 2)数据稀疏问题,即真实事实仅解释了所有可能事实的一小部分。为此,我们提出了针对KGC的对抗数据增强(PUDA)的积极未标记的学习。特别是,PUDA针对KGC任务量身定制了正标记的风险估计器,以解决虚假的负面问题。此外,为了解决数据稀疏问题,PUDA通过在积极的无标记的Minimax游戏中统一对抗性培训和积极的未标记学习来实现数据增强策略。现实世界基准数据集的广泛实验结果证明了我们提出的方法的有效性和兼容性。
translated by 谷歌翻译